在这项工作中,我们评估了人口模型和机器学习模型的合奏,以预测COVID-19大流行的不久的将来的演变,并在西班牙有特殊的用例。我们仅依靠开放和公共数据集,将发生率,疫苗接种,人类流动性和天气数据融合来喂养我们的机器学习模型(随机森林,梯度增强,K-Nearest邻居和内核岭回归)。我们使用发病率数据来调整经典人群模型(Gompertz,Logistic,Richards,Bertalanffy),以便能够更好地捕获数据的趋势。然后,我们整合了这两个模型家族,以获得更强大,更准确的预测。此外,我们已经观察到,当我们添加新功能(疫苗,移动性,气候条件)时,使用机器学习模型获得的预测有所改善,使用Shapley添加说明值分析了每个功能的重要性。就像在任何其他建模工作中一样,数据和预测质量都有多个局限性,因此必须从关键的角度看待它们,如我们在文本中所讨论的那样。我们的工作得出的结论是,这些模型的合奏使用可以改善单个预测(仅使用机器学习模型或仅使用人口模型),并且在由于缺乏相关数据而无法使用隔室模型的情况下,可以谨慎地应用。
translated by 谷歌翻译
This letter focuses on the task of Multi-Target Multi-Camera vehicle tracking. We propose to associate single-camera trajectories into multi-camera global trajectories by training a Graph Convolutional Network. Our approach simultaneously processes all cameras providing a global solution, and it is also robust to large cameras unsynchronizations. Furthermore, we design a new loss function to deal with class imbalance. Our proposal outperforms the related work showing better generalization and without requiring ad-hoc manual annotations or thresholds, unlike compared approaches.
translated by 谷歌翻译
Privacy-preserving machine learning in data-sharing processes is an ever-critical task that enables collaborative training of Machine Learning (ML) models without the need to share the original data sources. It is especially relevant when an organization must assure that sensitive data remains private throughout the whole ML pipeline, i.e., training and inference phases. This paper presents an innovative framework that uses Representation Learning via autoencoders to generate privacy-preserving embedded data. Thus, organizations can share the data representation to increase machine learning models' performance in scenarios with more than one data source for a shared predictive downstream task.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Machine-Learned Likelihoods (MLL) is a method that, by combining modern machine-learning classification techniques with likelihood-based inference tests, allows to estimate the experimental sensitivity of high-dimensional data sets. We extend the MLL method by including the exclusion hypothesis tests and show that the addition of Kernel Density Estimators avoids the need to bin the classifier output in order to extract the resulting one-dimensional signal and background probability density functions. We first test our method on toy models generated with multivariate Gaussian distributions, where the true probability distribution functions are known. We then apply it to a case of interest in the search for new physics at the HL-LHC, in which a $Z^\prime$ boson decays into lepton pairs, comparing the performance of our method for estimating 95\% CL exclusion limits to the results obtained applying a binned likelihood to the machine-learning classifier output.
translated by 谷歌翻译
社会互动网络是建立文明的基材。通常,我们与我们喜欢的人建立新的纽带,或者认为通过第三方的干预,我们的关系损害了。尽管它们的重要性和这些过程对我们的生活产生的巨大影响,但对它们的定量科学理解仍处于起步阶段,这主要是由于很难收集大量的社交网络数据集,包括个人属性。在这项工作中,我们对13所学校的真实社交网络进行了彻底的研究,其中3,000多名学生和60,000名宣布正面关系和负面关系,包括对所有学生的个人特征的测试。我们引入了一个度量标准 - “三合会影响”,该指标衡量了最近的邻居在其接触关系中的影响。我们使用神经网络来预测关系,并根据他们的个人属性或三合会的影响来提取两个学生是朋友或敌人的可能性。或者,我们可以使用网络结构的高维嵌入来预测关系。值得注意的是,三合会影响(一个简单的一维度量)在预测两个学生之间的关系方面达到了最高的准确性。我们假设从神经网络中提取的概率 - 三合会影响的功能和学生的个性 - 控制真实社交网络的演变,为这些系统的定量研究开辟了新的途径。
translated by 谷歌翻译
工业X射线分析在需要保证某些零件的结构完整性的航空航天,汽车或核行业中很常见。但是,射线照相图像的解释有时很困难,可能导致两名专家在缺陷分类上不同意。本文介绍的自动缺陷识别(ADR)系统将减少分析时间,还将有助于减少对缺陷的主观解释,同时提高人类检查员的可靠性。我们的卷积神经网络(CNN)模型达到94.2 \%准确性(MAP@iou = 50 \%),当应用于汽车铝铸件数据集(GDXRAR)时,它被认为与预期的人类性能相似,超过了当前状态该数据集的艺术。在工业环境上,其推理时间少于每个DICOM图像,因此可以安装在生产设施上,不会影响交付时间。此外,还进行了对主要高参数的消融研究,以优化从75 \%映射的初始基线结果最高94.2 \%map的模型准确性。
translated by 谷歌翻译
卫星图像构成了许多现实世界应用的高价和丰富的资源。但是,训练大多数机器学习模型所需的标签数据稀缺且难以获得。在这种情况下,当前的工作研究了一种完全无监督的方法,鉴于卫星图像的时间顺序,根据其语义属性及其随着时间的推移的进化而形成了地面的分区。图像序列被翻译成嵌入式瓷砖的多元时间序列的网格。这些瓷砖序列的嵌入和分区聚类以两个迭代步骤构造:在第一步中,嵌入能够根据地理位置邻域提取瓷砖序列的信息,将瓷砖分组为群集。在第二步中,通过使用簇定义的邻域来完善嵌入,并获得了瓷砖序列的最终聚类。我们通过进行纳瓦拉(Navarra)区域的20个卫星图像的序列(西班牙)的序列进行语义聚类来说明方法。结果表明,多元时间序列的聚类非常健壮,并且包含有关研究区域的信任时空语义信息。我们揭示了地理和嵌入式空间之间存在的紧密连接,并发现归因于这些类型的嵌入的语义属性被完全利用,甚至通过提议的时间序列的聚类来增强。
translated by 谷歌翻译
深度学习的可解释性被广泛用于评估医学成像模型的可靠性,并降低患者建议不准确的风险。对于超过人类绩效的模型,例如从显微镜图像中预测RNA结构,可解释的建模可以进一步用于发现高度非平凡的模式,而这些模式原本是人眼无法察觉的。我们表明,可解释性可以揭示癌组织的微观外观与其基因表达分析之间的联系。尽管从组织学图像中对所有基因进行详尽的分析仍然具有挑战性,但我们估计了癌症分子亚型,生存和治疗反应的众所周知的基因子集的表达值。我们的方法成功地从图像幻灯片中确定了有意义的信息,突出了高基因表达的热点。我们的方法可以帮助表征基因表达如何塑造组织形态,这可能对病理单位中的患者分层有益。该代码可在GitHub上找到。
translated by 谷歌翻译
在工业机器人附近工作时,人体安全一直是重中之重。随着人类机器人协作环境的兴起,避免碰撞的物理障碍已经消失,增加了事故的风险以及需要确保安全的人类机器人协作的解决方案。本文提出了一个安全系统,该安全系统实现速度和分离监控(SSM)的操作类型。为此,根据工业协作机器人的当前标准,在机器人的工作区中定义了安全区域。基于深度学习的计算机视觉系统可检测,轨道和估计机器人附近的操作员的3D位置。机器人控制系统接收操作员的3D位置,并在模拟环境中生成其3D表示。根据检测到最接近操作员的区域,机器人停止或更改其工作速度。呈现人类和机器人相互作用的三种不同操作模式。结果表明,基于视觉的系统可以正确检测和分类操作员的安全区域,并且不同提出的操作模式确保机器人的反应和停止时间在所需的时间限制之内以确保安全性。
translated by 谷歌翻译